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BESCHREIBUNG 

Verfkhren zur Erzeugung eines Maximum-Entropie-Spradimbdells 

Die Erfindung betrifft ein Verfahren zur Erzeugung eines Maximum-Enrropie-Sprach- 
modelk fUr ein Spracherkennungssystem. 

5 ; • • * 

Bei der Erzeugung von Sprachmodellen fur Spracherkennungssysteme stellt sich das Pro 
blem, doss die Trainingskorpora nur begrenzte Mengen an Trainingsmarerial enthalten. 
Wahrscheinlichkeiten fiir sprachliche Aufierungen, die aJlein aus den entsprecbenden Auf- 
trittshaufigkeiten im Trainingskorpus abgeleitet sind, warden deshalb Glattungsprozeduren 

10 unterworfen, beispielsweise bei backing-off-Techniken. Doch nutzen backing-off-Sprach- 
modelie den statistischeh Informationsgehalt von verfugbaren Train ingsdaten regelmafiig 
nicht optimal aus, da nicht gesehene Vergangenheiten von N-Grammen lediglich dadurch 
kompensiert werden, dafi das jeweils betrachrete N-Gramm soweit verkiiizt wird, bis man 
eine von Null verschiedene Auftrittshaufigkeit im Trainingskorpus erhalt. Mit Maximum- 

15 Entropie-Sprachmodellen lcann diesem Problem entgegengewirkt werden (vgl. R. Rosen- 
feld, "A maximum entropy approach to adaptive statistical language modeling", Computer, 
Speech and Language, 1996, Seiten 187-228). Mittels derartiger Sprachmodelle kSnnen 
insbesondere sowohl Auftrittshaufigkeiten von N-Grammen als auch von Liicken-N- 
Grammen im Trainingskorpus zur Schatzung von SprachmodeUwahrscheinlichkkeiten 

20 vewendet werden, was bei backing^oflF-Sprachniodellen nicht der Fall ist. AUerdings tritt 
. bei der Erzeugung eines Maximum^Entropie-Sprachmodells das Problem auf, geeignete 
Randwerte zu schatzen, von deren Wahl die iterierten Sprachmodeliwerte des Maximum- 
Entropie-Sprachmodells abhangen. Die SprachmodeUwahrscheinlichkeiten px(w I h) eines 
. solchen Sprachmodells (w: Vokabularelemenr; h: Vergangenheit von Vokabularelementen 

25 beziiglich w) sind wahrend eines Trainings so zu bestimmen, dafi sie Randwercgleichungen 
der Form 



I 



I 



I 
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magHchst gat erflillen. Hierbei stellt ma jeweils einen Randwert fur eine a priori festzu- 
seczende Bedihgung a dar, von deren ErfMung es abhangt, ob die Filterfunkrion f«(h, w) 
den Wert Bins oder den Wert Null annimmt, Eine Bedingung a fragt dabei ab, ob eine 
betrachtete Polge (h, w) von Vokabularelementen ein bestimmres N-Gramm (der Begriff 
5 N-Gramm soil auch Lueken-N-Gramme umfassen) ist oder auf ein bestimmtes N-Gramm 
(N £ 1) endet, wpbei N-Gramm-Elemente auch Klasseh sein konnen, die in besonderem 
Bezug zueinander sxehende Vokabularelemente zusammenfassen. N(h) gibt die Aufcritts- 
h&ufigkeit der Vergangenheit h im Trainingskorpus an, 

10 Unter alien WahrscheinHchkeitsvertetfungeri, welche die Randwertgleichungen erfiillen, 
wird bei der Maximurn-Entropie-Modellierung diejenige Verteilung ausgewahlt, welche 
die bedingte Entropie 



h 



15 



maximiert. Die spezielle Verteilung hat die Form 



20 mit geeigneten Parametern 

Bei. der Iteration eines Maximum-Entropie-Sprachmodells wird imbesondere der soge- 
nannte GIS-Algorithmus ('■Generalized Iterative Scaling") eingesetzt, dessen Grundstrukrur 
in J.N.Darroch, D. Ratdiff: "Generalized iterative scaling for log-linear models", The 
25 Annals of Mathematical Statistics, 43(5), Seiten 1470-1430, 1972 beschrieben 1st, Ein 
Ansatz zur Besrirnmung der erwShnten Randwene mo beruht beispielsweise auf der 
Maximierung der WahrscheinUchkeit des verwendeten Trainingskorpus, was auf Rand- 
werte ma = N(a) fuhrr, Ah. es wird ermittelt, wie haufig die Bedingungen a im Trai- 
ningskorpus erftillt sinA Dies ist beispielsweise in S.A. Delia Pietra, V. J> Delia Pietra, J. 
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Lafferty, 'Inducing Features of random fields", Technical report, CMU-CS-95-144, 1995 
beschrieben. Die Randwerte ma exzwingen jedoch hiufig, dass einige Sprachmodellwahr- 
scheinlichkeitswerte px(w I h) der durch die Randwertgleichungen eingeschrankten ; 
Modelle verschwinden (d.h. zu Null werden), und zwar insbesondere fur im Trainings- 
5 korpus nicht gesehene Folgen (h, w). Verschwindende SprachmodeUwahrscheinlidikeits- 
werte pa.(w I h) sind aber aus zwei Grlinden zu vermeiden: Einerseits konnte ein Sprach- 
erkennungssystem in solchen Fallen S&tze mit der Wortfolge (h, w) nicht erkennen, auch 
wenn diese plausible Erkennungsergebnisse waren, nur weil sie nicht im Trainingskorpus 
vorkommen. Andererseits widersprechen Werte p^(w I h) ~ 0 der funkrionalen Gestalt der 
10 Losung aus der oben angefUhrten Gleichung fiir px(w I h), solange die Parameter X a auf 
endliche Werte beschrahkt sind. Diese sogenannte Inkonsistenz (vgl. J.N.Darroch, D. 
RatclifF am oben genannten Ort) verhindert die Losung der Randwertgleichungen mit 
alien bisher bekannten Trainingsverfahren. 

15 Der Erfindung liegt nun die Aufgabe zugrunde, ein Verfahren zur Erzeugung von 
MaximunvEntropie-Sprachmodellen so auszugestalten, das eine Verbesserung der 
staristiscben Eigenschaften des erzeugten Sprachmodells erreicht wird. 

Die Aufgabe wird dadurch geltist, dass 
20 - durch Auswertung eines Trainingskorpus erste Wahischeinlichkeitswerte p lrd (w I h) fiir 
N-Gramme mit N £ 0 gebildet werden; 

eine Schaizung von zweiten Wahrscheinlichkeitswerten pa,(w I h), die SprachmodeU- 
werte des Maximum-Entropie-Sprajchmodells repiasentieren, in Abhangigkeit von den 
ersten Wahrscheinlichkeitswerren durchgefuhrt wird; 
25 - Randwerte ma entsprechend der Gleichung 

(h t w) 

bestimmt werden, wobei N(h) die Auftrittshaufigkeit der jeweiligen Vergangenheit h 
im Trainingskorpus und f B (h, w) eine Filterfunkrion ist, die nur fiir bestimmte durch 
den Index a gekennzeichnete und a priori vorgegebene N-Gramme einen von Null 
30 Verschiedenen Wert und ansonsten den Wert Null aufwebt; 
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eine Iteration von Sprachrnodellwerten des Maximum-Entropie-Sprachrnodells soknge 
durchgefiihrt wird, bis im n-ten Iterationsschritt nach der Formel 

ermittelte Werte mj^ nach einem vorgebbaren Konvergenzkriterium hinreichend 
5 genau den Randwerten ma angenahert sind. 

Eine derartige Sprachniodellbildung flihrt auf ein Sprachmodeil, welches die Statistik des 
Trainingskorpus besser auf die Sraristik der zu erkennenden Sprache verallgemeinert, 
indeni die Schatzung der Wahrscheinlichkeiten px(w I h) fur ungesehene Wbrtiibergange 
10 (h, w) unterschiedliche Statistiken des Trainingskorpus ausnutzt: Neben den kiirzerreich- 
weitigen N-Grammen (wie bei backing-off-Sprachmodellen) konnen dann auch Liicken- 
N- Gramm- Statistiken und Korrelationen zwischen Won-Klassen bei der Schatzung der 
Werte px(w I h) berucksichtigt werden. 

15 Insbesondere ist vorgesehen, dass zur Iteration der Sprachmodellwerte des Maximum^ 
Entropie-Sprachmodells, d.h. zum iterativen Training, der GIS-Algorithmus verwender 
wird. Die ersten "Wahrscheinlichkeitswerte p^Cw I h) sind Vorzugsweise backing- off- 
Sprarllmodellwahrschdiilichkeii^werte. 

20 Die Erflndung bezieht sich auch auf ein Spracherkennungssystem mit einem entsprechend 
hergestellten Sprachmodell. 

Ausfuhrungsbeispiele der Erflndung werden im folgenden unter Verwendung einer Pigur 
naher eriautert. 



25 

Die Pigur zeigt ein Spracherkennungssystem 1, dam an s einem Eingang 2 in elektriseher . 
Form voriiegende Sprachsignale zugefuhn werden. Ein Funktionsblock 3 fafit eine akusti- 
scbe Analyse zusammen, die dazu fuhrt, dafi sukzessive am Ausgang 4 Merkmalsvektoren 
ausgegeben werden, die die Sprachsignale beschreiben. Bei der akustischen Analyse werden 
30 die in elektrischer Form vorliegenden Sprachsignale abgetastet uhd quantisiert und an- 
schliefiend in Rahmen ziisammengefafit. Aufeinanderfolgende Rahmen iiberlappen sich 
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vorzugweise dabei teilweise gegenseitig. Fur jeden einzelnen Rahmen wird ein Merk- 
maisvektor gebildet. Der Funktionsblock 5 fafit die Suche nach der Folge von Sprach- 
vokabukrelementen zusammen, die bei der gegebenen Eingabe der Folge von Merk- 
makvektoren am wahrseheinlichsten ist. Wie bei Spracherkennungssystemen iiblich, 
5 wird hieizu die Wahrscheinlichkeit des Erkennungsergebnisses mit Hilfe der sogenannten 
Bayes-Formel maxirniert. Hierbei geht sowohi ein akustisches Modell dex Sprachsignale 
(Funktionsblock 6) als auch ein linguistisches Sprachmodell (Funktionsblock 7) in die 
Verarbeirung gemSfi Funktionsblock 5 ein. Das akusrische Modell gerna£ Funktionsblock 
6 beinhaltet die iiblich e Verwendung von sogenannten HMM-Modellen ("Hidden Markov 

10 Models") fur die Modellierung einzelner Vokabulaxelemente oder auch einex Kombinarion 
mehrerer Vokabularelemente* Das Sprachmodell (Funktionsblock 7) enthalt geschStzte 
Wahrscheinlichkeitswerte flir Vokabularelemente oder Folgen von Vokabularelementen. 
Hierauf bezieht sich die im folgenden naher erlauterte Erfmdung, die dazu fuhrt, da£ die 
Fehlerrate des am Ausgang 3 ausgegebenen Erkennungsergebnisses reduziert wird, 

15 Aufierdem wird die Perplexitat des Systems reduziert. 

Beim eifindungsgemafien Spracherkennungssystem 1 wird ein Sprachmodell mit Wahr- 
scheinlichkeitswerten p x (w I h), dh, bedingten N-Gramm-Wahrscheinlichkeiren mit 
■ N £ 0 ftir N- Gramme (h, w) verwendet (mit h als Vergangenheit aus N-l Elementen 

20 beziiglich des Vokabularelementes w bezeichnet), das auf einem Maadmum-Entropie- 
Ansatz beruht. Hierbei wird die gesuchte Verteilung duxch bestimmte Randverteilungen 
eingeschrSnkt, und unter diesen Randbedingungen wird das Modell maximaler Entropie 
ausgewahlt. Die Randbedingungen konnen sich sowohi auf N-Gramme verschiedener 
L*nge (N = I, 2, 3, ...) als auch auf Lucken-N- Gramme beziehen, z* B* auf Liicken- 

25 Bigramrne dex Form (u, *, w), wobei * ein Platzhalter fur mindestens ein beliebiges N- 
Gramm-Element zwischen den Elementen u und w ist. Ebenso kdnnen N-Gramm-Ele- 
mente Klassen C sein, die Vokabularelemente zusammenfassen, die einen besonderen 
Bezug zueinander haben, z. B. indem sie grammatikalische oder semantische Verwandt- 
schaften zeigen. 



30 



Die Wahrscheinlichkeiten px(w I h) werden in einem Training auf der Grundlage eines 
Trainirig$korpus (z. B. NAB-Korpus - North American Business News) gemSfi folgender 
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Formel geschatzr. 

Die Gtite des so gebildeten Sprachmodells wird entscheidend von der Wahl von Rand- 
werren rtia bestimmt, von denen die zu bestirnmenden Wahrscheinlichkeitswerre px(w I h) 
Rir das Sprachmodell abhangen, was durch die folgende Formel ausgedxuckr wixd; 



Die Randwerte rria werden mittels eines bereits berechneten und vorliegenden Sprach- 
modells mir den Sprachmodellwahrscheinlichkeiten p w (w I h) geschitet. Dazu wird 
Formel (2) verwendet, in der lediglich pa,(w I h) durch p^( w ' b) zu ersetzen ist, so 
eine Sch&tzung der m« anhand der Formel 



= S>« I*) -W) (3) 



erfolgt. 

20 Die Werte p ind (w I h) sind insbesondere Wahrscheirilichkeitswerte eines auf der Basis des 
zugrundegelegren Trainingskorpus ermittelten sogenannten backing-off-Sprachmodells 
(siehe beispielsweise Kneser, H. Ney, "Improved backing-off for M-gram language 
modeling", ICASSP 1995, Seiten 181-185). Die Werte p^w I h) konnen aber audi 
anderen als gegeben vorauszusetzenden (schon berechneten) Sprachmodellen emnommen 

25 werden, wie si e beispielsweise in A. Nadas: "Estimation of Probabilities in the Language 
Model of the IBM Speech Recognition System", IEEE Trans, on Acoustics, Speech and 
Signal Proc, Vol. ASSP-32, Seiten 859-861, Aug. 1984 und in S.M. Katz: "Estimation of 
Probabilities from Sparse Data for the Language Model Component of a Speech Recog- 
nizer 11 , IEEE Trans, on Acoustics, Speech and Signal Proc, Vol. ASSP-35, Seiten 400-401/ 



15 
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March 1987, beschrieben sin A 

N(h) gibt die Haufigkeit der jeweiligen Hbtorie h im Trainingskorpus an. f 0 (h, w) ist eine 
zu einer Bedingung a korrespondierende Filterfunktion, die einen von Null verschiedenen 
Wert (hier den Wert Eins) hat, wenn die Bedingung a erfullt ist, and ansonsten gleich 
Null ist Die Bedingungen a und die zugehorigen FUterfunktionen f a werden heuristisch 
fur das jeweilige Trainingskorpus festgelegt* Insbesondere wird hierbei ausgewahlt, fur 
welche Wort- oder Klassen-N-Gramme oder Liicken-N-Gramme die Randwerte fixiert 
werden. 



10 



Bedingungen a, bei denen £x(h, w) den Wert Eins hat, sind vorzugsweise: 
ein betrachtete N-Gramm endet auf ein bestimmtes Vokabularelement w; 
ein betrachtetes N-Gramm (h, w) endet auf ein Vokabularelement w> das einer 
bestimmten Klasse C angehort, die Vokabularelemente zusammenfafit, die einen 

15 besondexen Bezug zueinander haben (s.o.); 

ein betrachtetes N-Gramm (h, w) endet auf ein bestimmtes Bigrarhm (v, w) oder ein 
Lucken-Bigramm (u, **, w) oder ein bestimmtes Trigramm (u, v, w), etc; 
ein betrachtetes N-Gramm (h, w) endet auf ein Bigramm (v, w) oder ein Lticken- 
Bigramm (u, *, w), etc./ wobei die Vokabularelemente u, v und w in bestimmten 

20 vorgegebenen Wortklassen C, D und E Iiegen. 

Neben der Ableitung aller Randwerte m* nach Gleichung (3) aus einem vorgegebenen 
a priori- Sprachmodell mit Wahrscheinlichkeitswerten p^Cw I h) konnen filr bestimmre 
Gruppen von Bedingungen a getrennt jeweils ein eigenes a priori-Sprachmodell mix Wahr- 

25 scheinlichkeitswerten pi^w I h) vorgegeben werden,. wobei die Randwerte nach Gleichung 
(3) in diesem Fall dann getrennt fur jede Gruppe aus dem zugehorigen a priori-Sprach- 
modell berechnet werden. Beispiele far mogltche Gruppen kdnneri insbesondere gebildete 
werden durch: 

Wort-Unigramme, Wort-Bigramme, Wort-Trigrammej 

30 ' - Wort-Lucken-l-Bigrarnme (mit einer einem einzigen Worr entsprechenden Liicke); 
Wort-Liicken-2-Bigramme (mit einer zwei Worten entsprechenden Liicke); 
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Klassen-Unigramme, Kkssen-Bigramme, Klassen-Trigramme; 
Kkssen-Liicken- 1 -Bigrarnme ; 
KlassenrLucken-2-Bigrarame. 

5 Die Bestimmung der SprachmodcU-Parameter crfblgc hier mit HUfe des GIS- 
Algorithmic dessen Grundstnalccur.beispiebweise von J.N.Dairoch, D. RacclifF 
beschrieben wuxdc Hier wird dabei ein Were M mit 



10 

angesetzt. Weiterhin soil N die Grdfie des verwendeten Trainingskorpus, d.h. die An2ahl 
im Trainingskorpus enthaltenen Vokabularelemente bezeichnen. Damit lafir sich der ver- 
wendete GIS-Algorithmus wic folgt schreiben: 

1 5 Schrin: 1 \ Statten mit irgendeinem Startwerc (w \ h) 

Schritt 2: Akmalisierung der Randwcrte im n-ten Durchlauf der Iterationsschleife: 

20 wobei jp£°'(w | h) aus den in Schritt 3 ermitteiten Parametern ^a <ft) durch 

Einsetzen in Bormel (1) berechnet wird. 

Schrin 3: Aktualisierung der Parameter > 



(6) 



wobei der zuietzc subwahierte Term fiir den Fall encfallt, daJ8 ftir M gilt: 
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i. ^iedesVerfehreneingesewWen. 

15 Delk Piewa, ]. LattertyAs. « , . ■ . 
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10 werte des Mazimum-Enrropie-SprachmodeUs repras 
Wwerte entsprechend dex Gleichung 

best mmtwerden, wobeiisw «c ^ kestimmte durch 

l5 . im Traimn gS korpu S «ndf-(h.w) ein _ ^Granune einen von Null 

. de.I^agekeanzeichneteu.d.pnonvo^n.N^ 

« A*>n Wert Null aurweisr, 

versehiedenen Wert und ansonsten den ^ $ ^odelk solange 

. ei ne Iteration von Spr^modeUwerten des / 

dur chgefuh«wi^^^ 

m M = ^pM(w\h)N(h) : f a (.h>v>r • 

genau den Randwerten m* angenahert sind. 

^ , 2. Verfahren nach Anspruch X, 

da« zut Iterttion der Sprachmodeltwerte aes 
Algorithmus verwendet wird. 



Z^Z^^^^ 
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3. Verfahren nach Anspruch 1 oder 2> 
dadqrch gekennzeichnett 

dass ein backing- off-Sprachmodell zur Liefening der ersten Wahrscheinlichkeitswerte 
vorgesehen Ut. 

5 . 

4. Verfahren nach Anspruch 1, 
dadiirch gekennzeichnet. 

dass zur Berechnung der Randwerte rrio fiir verschiedene Uritergruppen, die Gruppen be- 
stimmter a zusammenfassen, verschiedene erste Wahischeinlichkeitskeitswerte p w (w I h) 
10 verwendet werden. 

5. Spracherkennungssystem mit einem nach einem der Anspriiche 1 bis 4 erzeugten 
Sprachmodell. ■ ' ' \ 



1999 10:36 
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ZUSAMMENFASSUNG 



Verfahren zur Erzeugung eines Maximuxn-Entropie-Sprachinodells 

Die Erfindung betrifft ein Verfahren zur Erfceugung eines Maximum- En tropie-Spiach- 
modelk fUr einSpracherkeiuiungssystem. . 

5 

Um eine Verbesserung der statistischen Eigenschaften des erzeugten Sprachmodells zu 
erreichen, wird vorgeschlagen, dass 

durch Auswerturig eines Trainingskorpus erste Wahrscheinlichlceitswerte p^Cw I h) fiir 
N-Gramme mic N £ 0 gebildet werden; 
10 eine Schatzung von zweiten WahrscheinUchkeitswerten px(w I h), die Sprachmodell- 

werre des Maximurh-Entropie-Sprachmodells reprasentieren, in Abhangigkeit von den 
ersten Wahrscheinlichkeit^werren durchgefuhrt wird; 
^ s - Randwerce ma entsprechend der Gleichting 

' ' 15 bestirrunt werden, wobei N(h) die Ajuftrittshaufi^teit der jeweiligen Vergangenheit h 

im Trainingskorpus und f a (h, w) eine Filrerfunktion ist, die nur fiir bestimmte durch 
den Index a. gekennzeichnete und a priori vorgegebene N-Gramme einen von Null 
verschiedenen Wert und ansonsten den Wert Null aufweist; 

eine Iteration von Sprachmodellwerten des Maximum-Entropie-Sprachmodells solange 
20 durchgefuhrt wird, his im n-ten Iterationsschritt nach der Forme! 



♦ 



ermittelte Wexte m a w nach einem vorgebbaren Konvergenzkriterium hinreichend 
genau den Randwerten angenahert sind. 
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